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HE: 


[ 目的 】 探 讨 冶金 领域 中 文 专利 术语 抽取 模型 的 最 优 条 件 , 用 于 有 效 地 抽取 冶金 领域 专利 术语 。[ 方法 】 


使 用 尚 不 完善 的 核心 语料库 ,在 无 需 人 工 标 引 的 情况 下 , 采用 条 件 随机 场 (CRFs) 构 建 字 角 色 标 注 的 冶金 领域 中 
文 专利 术语 识别 模型 。 详 细 说 明 模 型 的 构建 过 程 ， 同 时 重点 对 比 CFRs 的 各 个 因素 (特征 组 合 、 字 长 窗口 等 ) 对 识 


别 效果 的 影响 。【 结果 ] 实验 结果 表明 字 序 列 、 级 别 特征 、 


领域 特征 、 温 度 特征 的 组 合 在 字 长 窗口 为 3,c 等 于 1 


f 等 于 1 时 , 准确 率 达 到 94.2695, 召回 率 达 到 94.3796, F1 值 达 到 94.596. [ BR ] 核心 词典 欠 完 善 ,使 得 部 分 词语 
标注 不 够 准确 ; 未 与 其 他 方法 作 详细 比较 ,未 详细 说 明 CRFs 的 可 靠 性 。[ 结论 ] CRFs 在 适当 的 角色 和 特征 以 及 
特征 模板 的 组 合 下 能 较 好 地 识别 出 治 金领 域 的 中 文 专利 术语 。 
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专利 具有 新 颖 、 实 用 的 特征 ,是 科技 信息 最 为 有 
效 的 载体 之 一 , 代表 了 一 个 国家 一 个 民族 的 科技 发 
REKE, 专利 的 有 效 利用 能 够 提高 国家 和 企业 的 发 
展 速度 Rn。 然而 由 于 中 文 专利 文献 为 非 结构 化 文本 ， 
并 且 其 中 的 专利 术语 包含 较 多 的 长 术语 和 英文 缩写 
术语 ， 作 为 专利 文献 核心 内 容 的 专利 术语 较 难 被 科 
技 人 员 直 接 识别 ， 进 而 影响 专利 的 利用 率 。 因 此 , 专 
利 术 语 的 抽取 显得 较为 重要 。 不仅 如 此 ， 专 利 术 语 的 
抽取 也 为 分 词 、 句 法 分 析 、 专 利 本 体 的 构建 等 英 定 了 
基础 。 

目前 中 文 领域 术语 识别 主要 有 三 种 方法 : 

(1) 基于 规则 的 方法 “I。 基 于 规则 的 方法 也 可 称 
为 基于 语言 学 的 方法 , 主要 是 根据 语言 学 知识 制定 特 
殊 句 法 结构 或 模板 , 匹配 符合 这 些 特征 模板 的 字符 


m} 


串 。 由 于 特定 语言 的 复杂 性 ， 及 其 语法 不 断 发 展 变 化 ， 
随 着 科技 的 发 展 ,新 术语 层出不穷 , 使 得 该 方法 较 难 
实施 , 缺乏 灵活 性 。 

(2) 基于 统计 的 方法 人 1。 该 方法 以 统计 学 为 理论 
基础 ,利用 语料库 中 已 有 的 术语 分 布 统计 来 识别 术 
语 。 常 用 的 统计 方法 分 为 衡量 词 或 词组 的 领域 性 ， 如 
词 频 (Frequency) 和 衡量 词组 的 单元 性 ， 如 互信 息 
(Mutual Information)" , 

Q) 规则 与 统计 相 结 合 的 方法 ~。 此 方法 可 在 统 
计 处 理 之 后 采用 语法 过 滤器 , 抽取 符合 统计 意义 且 与 
给 定 词法 模板 匹配 的 词汇 , 也 可 采用 语法 规则 筛选 出 
候选 项 ,再 计算 候选 项 的 统计 意义 办。 

条 件 随机 场 (Conditional Random Fields, CRFs) 是 
一 种 典型 的 序列 标注 判别 模型 ， 它 是 在 给 定 的 观察 序 
列 的 条 件 下 , 计算 整个 观察 序列 状态 标记 的 联合 条 件 
概率 分 布 的 无 向 图 模型 。CRFs 在 隐 马 尔 科 夫 模 型 
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(Hidden Markov Model, HMM) FRKA! (Max 
Entropy Model, MEM)?!" 基础 上 建立 ,克服 了 
HMMI 以 及 MEM 的 一 些 缺 点 ,如 CRFs 对 整个 标记 
序列 计算 联合 概率 , 在 整个 序列 范围 内 归 一 化 ,避免 
了 MEM 因 求 解 单个 或 局 部 观察 值 概率 所 带 来 的 标记 
偏 置 问题 "7。CRFs 被 广泛 应 用 于 中 文 文本 的 处 理 。 
例如 邓 三 鸿 等 将 其 用 于 中 文书 目 关键 词 标 引 ， 论 证 了 
该 模型 的 合理 性 和 实用 性 中 。 王 吴 等 将 其 应 用 于 网 络 
奥 情 分 析 中 的 人 名 识别 , 验证 了 CRFs 优 于 HMM, fX 
讨 了 CRFs 识别 人 名 的 最 佳 条 件 中 。 刘 伙 玉 等 将 其 用 
于 段落 自动 划分 与 构成 要 素 识别 , 认为 CRFs 在 更 大 
的 时 间 复 杂 度 代价 下 处 理 效果 优 于 MEM, 将 CRFs 
用 于 专利 术语 的 研究 较 少 ,如 李鹏 等 在 条 件 随机 场 的 
基础 上 提出 基于 规则 的 摘要 信息 抽取 方法 , 但 其 准确 
率 、 召 回 率 、F1 值 均 在 50% 以 下 ,并且 规 则 的 手工 
编写 费时 费力 路 。 刘 辉 等 通过 制定 语 料 标注 规则 进行 
人 工 标注 , 同时 采用 基于 字 的 序列 标注 ， 用 CRFs 进行 
训练 和 测试 , 实现 了 通信 和 领域 的 术语 抽取 ,最 高 准确 
率 为 80%, 但 其 中 的 人 工 标注 规则 仍 是 一 个 耗 时 长 的 
工程 ,而且 未 讨论 利用 术语 识别 的 特征 和 角色 ,不 利 
于 后 人 进行 更 大 规模 的 术语 抽取 呈 。 黄 绍 杉 等 使 用 
CRFs 处 理 专利 的 英文 摘要 ,抽取 摘要 中 表示 技术 和 
功效 内 容 的 信息 , 平均 准确 率 约 为 40% 广 ]。 李 洪 政 等 
基于 CRFs 识别 汉语 专利 文本 介词 短语 ， 准 确 率 达 
90% 以 上 P91, 但 主要 通过 词性 标注 角色 和 特征 ,在 语 
言 学 的 角度 识别 介词 ， 实践 应 用 较 少 。 

本 文 以 钢铁 冶金 领域 的 中 文 专利 文献 的 标题 为 语 
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Tl, 通过 核心 语料库 自动 标 引 字 角 色 以 及 特征 , 采用 
CRFs 模型 ,建立 中 文 冶金 领域 术语 自动 抽取 模型 ， 并 
通过 调整 不 同 的 实验 参数 ， 观 察 不 同 的 实验 效果 来 探 
讨 模 型 最 佳 识别 条 件 。 


2 基于 CRFs 的 字 角 色 专 利 术语 识别 模型 
构建 


模型 分 为 三 部 分 : 字 角 色 的 定义 、 特 征 标 注 和 角 
色 标 注 、 构 建 特征 模板 。 字 角色 标注 和 特征 标注 为 文 
本 标注 , 角色 标注 重点 依赖 于 核心 词汇 库 , 用 于 识别 
术语 的 映射 和 还 原 。 而 特征 的 选择 依赖 于 特定 的 语 料 ， 
用 于 辅助 术语 识别 。 特 征 模 板 用 于 控制 特征 的 个 数 、 
字 长 窗口 等 因素 。 三 者 共同 形成 CRFs 输入 要 素 。 
21 字 角 色 标 注 模型 

专利 术语 识别 模型 如 图 1 所 示 , 整体 分 成 语 料 生成 
和 序列 标注 两 大 部 分 。 在 语 料 生成 部 分 : 首先 构建 钢铁 
冶金 领域 中 文 核心 词汇 库 , 包括 领域 词汇 列表 ， 以 及 常 
用 化 学 元 素 等 , 这 些 词汇 来 源 于 网 站 、 专 业 词 典 、 专 利 
常用 词 以 及 领域 专家 , 共计 6 467 个 ; 然后 将 专利 文本 
题名 进行 文本 标注 , 将 题名 拆 分 成 字 序列 , 包括 汉字 和 
连续 字母 或 数字 串 ; 通过 字 角 色 空 间 模型 标注 相应 的 
角色 ; 将 字 序 列 和 角色 序列 组 合 , 形成 包含 字 与 角色 的 
学 习 语 料 。 而 在 序列 标注 部 分 , 融入 外 部 特征 以 有 效 扩 
展 观 察 序 列 。 首 先 将 专利 文本 的 外 部 特征 ,如 是 否 是 音 
译 字 、 是 否 是 姓氏 等 特征 , 扩展 到 学 习 语 料 生 成 观察 标 
注 序列 构成 训练 语 料 ; 然后 训练 语 料 结 合 特征 模板 通 
过 CRFs 算法 计算 生成 序列 标注 模型 ， 此 处 将 会 多 次 测 
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图 1 基于 CRFs 的 字 和 角色 专利 术语 识别 模型 
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试 不 同 的 观察 序列 取 值 , 不 同 的 特征 集合 个 数 以 及 
不 同 的 角色 集合 ， 以 寻找 最 佳 的 建 模 条 件 ; 仅 有 观察 
序列 的 测试 语 料 在 训练 的 模型 学 习 下 生成 角色 序列 ; 
最 后 依据 之 前 定义 的 字 角 色 抽 取 领 域 术语 。 

训练 和 测试 语 料 来 自 中 国 国家 知识 产权 局 专利 检 
RFR, 笔者 下 载 了 与 该 领域 相关 的 中 文 专利 文献 共 
计 7597 条 , 并 以 其 题名 作为 术语 抽取 的 实验 文本 , 前 
1 000 条 作为 测试 语 料 ， 其 余 为 训练 语 料 。 采用 的 实验 
工具 为 CRF++0.58。 
2.20 ”专利 术语 角色 和 特征 的 定义 及 其 标注 

字 角 色 即 为 观察 对 象 的 标注 记号 , 特征 是 对 字 序 
列 特征 的 扩展 , 字 序 列 与 扩展 特征 共同 决定 了 字 所 表 
现 出 的 角色 。 在 角色 的 定义 和 标注 阶段 ， 首先 定义 角 
色 类 型 , 其 次 定义 特征 类 型 ,接着 将 字 序 列 扩展 标注 
角色 序列 和 特征 序列 。 

(1) 字 和 角色 空 间 模型 的 定义 

字 角 色 的 作用 表现 在 两 方面 : 在 语 料 生成 阶段 ， 
字 序 列 根据 核心 词汇 库 标 注 字 角 色 ; 在 序列 标注 阶段 ， 
一 方面 将 会 影响 标注 模型 的 生成 , 男 一 方面 在 最 后 抽 
取 阶 段 , 需要 根据 角色 集合 映射 还 原 成 术语 , 会 直接 
影响 到 术语 抽取 的 准确 率 。 笔 者 最 终 定义 了 8 种 角色 ， 
如 表 1 所 示 。 


表 1 字 角 色 集 合 
角色 (R) 说 明 示例 

B ”术语 首 字 如 “脱氧 剂 " 之 “ 脱 ” 
M REPE 如 “脱氧 剂 " 之 “ 氧 ” 
E ”术语 尾 字 如 “脱氧 剂 " 之 “ 剂 

wo Aces 如 “一 种 炼 钢 生产 的 新 型 脱 
P 术语 首 字 的 前 一 个 字 氧 剂 "之 < 型 * 
S ”单字 术语 Re. hen 

[|j«— 总 氧 剂 ” 

A 非 术语 词 中 的 字 M PORRA 

ye L 如 “GCr15 轧辊 淳 火 加 工 工艺 ” 
T 符号 数字 串 之 “GCr15” 

Á dun — RU RE PS MEA A 

E E 7 h 一 个 字 

Q 术语 尾 字 的 后 一 个 字 剂 及 其 生产 方法 "之 “及 ” 


(2) 特征 的 定义 

特征 的 作用 在 于 扩展 语 境 特 征 ， 提 高 测试 阶段 
的 准确 率 ， 它 依赖 于 特定 的 语 料 。 笔 者 通过 观察 来 
源 语 料 发 现 冶 金领 域 文本 的 一 些 特点 : 冶金 术语 中 
包含 的 化 学 元 素 较 多 ， 如 铝 、 铁 、 锰 等 ,并且 其 中 一 
些 为 字符 ， 比 如 化 学 元 素 的 英文 字符 Fe, Q235, 
NbCFe-Mn-Si 等 ; 范畴 词 较 多 ， 例 如 , 工艺 、 装 置 、 
设备 、 系 统 等 ; 关于 温度 的 词语 , 例如 火 、 热 、 冷 等 
出 现 的 频率 较 高 。 由 此 ， 总 结 得 到 的 特征 定义 如 表 2 
所 示 : 


表 2 观察 + 标注 序列 标记 、 取 值 、 描 述 及 示例 
观察 序列 取 值 情况 描述 示例 
字 序 列 (2Z) 汉字 或 连续 字符 串 字形 特征 
姓氏 特征 CO Y 姓氏 字 (505) Z|X|Y Kk,G|C TR 
: 氏 竺 征 (又 = 
N 非 姓 氏 字 BA ce A 
m z Z 
ne Y 音译 外 来 字 (566) RENE ELM: N? 
音译 特征 (Y) x HAE NN YX | RC 
ETE y 77x 
EU JSRIN[N[Y|X|U,|N|E 
领域 党 | 
领域 EK) Y $i n :加 | N YL YL XY. Y il B 
N 非 领 域 常用 字 : dÁ! N Y Y X Z Y E 
X 级 常用 字 (2500) CXQINTI Y TYTX[|U]N|O 
级 别 特征 (G) Y 二 级 常用 字 (1000) | HÁ[N[NI|Y|X|Z)|N|A 
Z 其 他 Xx | vYlv|v|x. Y N.A 
X 指 事 字 (184) 续 N N Y X Z N A 
P Z 
Y 象形 字 (244) : NN NN u LN RE 
网 NIN| | Y |X NIA 
分 类 特征 (C) Z 形声 字 (3505) P 
MM HONONIY X|U|N P 
y 会 总 子 (073) xlni nly i zĪzĪiyĪB 
Y 其 他 类 型 字 KIYIÍNIÍYÍX | U|Y.M 
i Y 温度 词 (76) Jj! oNINIY X|Z|Y E 
温度 特征 (T) ni d 
N 非 温度 词 
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ER 2 的 示例 部 分 , 字 序 列 (Z) 中 竖 向 的 虚线 表示 
纵向 序列 组 合约 束 , 常用 的 包括 远程 上 下 文 信息 和 局 
部 上 下 文 信息 , 前 者 指 与 当前 对 象 具 有 一 定 文本 距离 
的 对 象 所 提供 的 长 距离 约束 , 后 者 指 以 当前 汉字 为 中 
Abs, 向 前 或 (和 ) 向 后 连续 选取 一 定 长 度 范 围 的 上 下 文 
作为 当前 汉字 的 约束 , 这 个 局 部 连续 范围 称 为 字 长 窗 
口 R ,常用 的 有 3 字 长 窗口 和 5 字 长 窗口 ,该 示例 为 5 
字 长 窗口 , 后 续 实 验 中 将 详细 比较 3 字 长 窗口 和 5 字 
长 窗口 对 结果 的 影响 。 横 向 的 虚线 为 横向 序列 组 合约 
束 。 本 文 将 在 语 料 中 出 现 的 连续 阿拉 伯 数 字 和 连续 的 
英文 字母 作为 一 个 单字 处 理 。 

(3) 字 序 列 、 角 色 序 列 、 扩 展 序列 的 生成 

角色 标注 的 算法 首先 将 句子 拆 分 为 单个 字符 ,并 
且 将 连续 的 字符 或 数字 合并 为 一 个 整体 。 存 人 二 维 数 
组 的 第 一 列 构成 字 序列 。 然 后 判断 句子 中 是 否 包含 核 
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心 词汇 ,如果 包 含 则 标记 句子 中 核心 词汇 的 角色 ,并 
且 依次 映射 到 字 序 列 。 最 后 标注 包含 数字 或 字母 的 字 
符 串 ,以 及 非 术 语 。 扩 展 序列 根据 标题 中 的 单个 字符 RR 
是 否 在 相应 的 语 料 中 , 来 标注 相应 的 特征 符号 。 
2.3 ”特征 模板 的 构建 

特征 模板 描述 了 在 训练 和 测试 阶段 中 用 到 的 特 
征 。 模 板 文 件 中 每 一 行 代表 一 个 模板 , 在 每 个 模板 里 ， 
特定 的 宏 %x[Row，Col] 用 来 描述 输入 数据 的 片段 ， 
Row 表示 当前 片段 的 相对 位 置 , Col 则 表示 列 的 绝对 位 
置 。 在 表 3 的 特征 模板 中 n 为 Row, 取 值 为 0 代表 当 
前 位 置 , -1 表示 当前 字 的 上 一 个 字 , 1 为 当前 字 的 下 
个 字 。 而 n-gram 表示 多 元 特征 关系 , 如 1-gram 表示 
1- 元 关系 特征 , 2-gram 表示 2- 元 关系 特征 。 为 探讨 不 同 
特征 组 合 的 识别 效果 , 笔者 设置 了 10 个 模板 ,如 表 3 
所 示 : 


表 3 冶金 术语 角色 标注 的 特征 模板 


模板 名 称 ”观察 特征 ”标注 角色 n-gram 特征 模板 
1-gram Z» n=-2, -1, 0, 1,2 
TMPTO Z L 2-gram ZuniZn, n7-1, 0, 1, 2; Za2Zn, n=0, 1, 2; LiLo 
3-gram Za-2Zn-1Zn, n=0, 1, 2 
l-gram Zu, Xn, ZnXn, n=-2, -1, 0, 1,2 
TMPTI ZX L 2-gram Zn-1Zn, Xy 4X3, n7-1, 0, 1, 2;Zn-2Zn, Xn-2Xn, n=0, 1, 2; LiLo 
3-gram Zn-2Zn-1Zn, Xn-2Xn-1Xn, n70, 1, 2 
1-gram Zao Xn, Yn, ZXYu,n=-2, -1, 0, 1, 2 
TMPT2 ZXY L 2-gram Zn-1Zn, Xy aX, Yn-1Yn, n—-1, 0, 1, 2; Zn2Zn, Xn 2 Xn, Yn-2Yn, n=0, 1, 2; LiLo 
3-gram Z 2Z 1Z， Xn2 Xn Xn, Yn-2Yn-1Yn, n70, 1, 2 
1-gram Zn, Xn, Yn, Ky, Zn XnYnKa, n7-2, -1,0, 1,2 
TMPT3  ZXYK L Bat: Ny Ve on L O; dpa 
Zn2Zn, Xn-2Xn, Yn-2Yn, Kyj5K,, n=0, 1, 2; LiLo 
3-gram Zn-2Zn-1Zn, Xn-2Xn-1Xn, Yn-2Yn-1Yn, Kn-2Kn-1Kn, n=0, 1, 2 
1-gram Zn, Xs, Yn, Ks, Gy, ZnXnYnKnGn, n7-2, -1, 0, 1, 2 
TMPT4  ZXYKG L Sud AE o ele Up i Ne. l, 0, Hole 
Zn-2Zn, Xn-2Xn, Yn-2Yn, Kn-2Kn, Gn-2Gn, n70, 1, 2; LiLo 
3-gram Zn-2Zn-1 Zn, Xn-2Xn-1Xn, Yn-2Yn-1Yn, Kn-2Kn-1Kn, Gn-2Gn-1Gn, n=0, 1, 2 
l-gram Zn, Xy, Yns Kn, Gns C4, ZnXnY nKnGnCn, n=-2, -1, 0, 1, 2 
Zn-1Zn, Xn-1Xn, Yn-1Yn, Kn-1Kn, Gn-1Gn, Cn-1Cn, n=-1, 0, 1, 2; 
METS (ZXYKOC y Peram ge be oss Yn2Yn Ka2Ka, Ga2Gn, Ca2Cn, n=0, 1, 2; Lalo 
3-gram Za-2Zn-1Zn, Xn-2Xn-1Xn, Yn-2Yn-1Yn, Kn-2Kn-1Kn, Gn-2Gn-1Gn, Cn2Cn1Cn, n=0, 1, 2 
1-gram Zn Xs, Yn, Ks, Gn, Cn, XnYnKnGnCn n=-1, 0, 1 
Zn-1Zn, Xy aX, Yi iYs, Kn-1Kn, Gn-1Gn, Cn-1Cn, n=0, 1; 
LN E PEERS og Za Xs YosT i Kadita Qa Goa, tied Lala 
3-gram Zn-2Zn-1Zn, Xn-2Xn-1Xn, Yn-2Yn-1Yn, Kn-2Kn-1Kn, Gn-2Gn-1Gn, Cn-2Cn-1Cn, n=1 
TMPT7 ZXYKGC L E] TMP5， 仅 除去 LiLo 
l-gram Zn, Xn, Yn, Kn, Gn, Cn, Tu ZnXnY nKnGnCanTn, n=-2, -1, 0, 1,2 
TMPT8 ZXYKGCT L 2-gram Zn-1Zn, Xn-1Xn, Yn-1Yn, Kn-1Kn, Gn-1Gn, Cn-1Cn, ToiTh, n7-1, 0, 1, 2 
3-gram Za-2Zn-1Zn, Xn-2Xn-1Xn, Yn-2Yn-1 Yn, Kn-2Kn-1Kn, Gn-2Gn-1Gn, Cn-2Cn-1Cn, Ta-2Tn-1 Th, n=0, 1, 2 
TMPT9 ZXYKGC L 同 TMPT5 除去 Zn-2Zn, Xn-2Xn, Yn-2Yn, Kn-2Kn, Gn-2Gn, Cn-2Cn, n70, 1, 2; LiLo 
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本 文采 用 以 下 指标 衡量 实验 结果 : 准确 率 P、 召 回 率 
R, FI 值 、 以 及 单字 识别 率 SP。 


_ 识别 出 的 正确 术语 个 数 (RN) 
识别 出 的 术语 个 数 (STN) 


识别 出 的 正确 术语 个 数 (RN) 


TMPT0， TMPT1， TMPT2, TMPT3， TMPTA, 
TMPT5, TMPT6 依次 扩展 特征 。TMPT5 和 TMPT6 用 
于 比较 3 字 长 窗口 与 5 字 长 窗口 的 差别 。TMPT4 和 
TMPT7 用 于 探讨 上 一 个 字 角 色 对 当前 字 角 色 的 约束 


x100% 


对 结果 的 影响 程度 。 x100% 
所 有 标注 的 术语 个 数 (TN) 
3 专利 术语 字 角 色 标 注 模型 实验 分 析 p 2PR 
P+R 
经 过 实验 以 后 , 在 抽取 阶段 , 通过 字 角 色 空 间 映 识别 出 的 字 个 数 
射 还 原 成 术语 。 如 表 1 里 角色 定义 的 一 样 , B 为 术语 首 MNT TII 
字 , E 为 尾 字 , S 为 单字 术语 。 那 么 表 2 中 BE 燃气 为 一 31 不 同 特征 模板 对 比 


根据 表 3 设置 的 特征 模板 , 得 到 的 结果 如 表 4 和 
图 2 所 示 。 由 于 各 模板 的 单字 识别 率 均 较 高 ,， 基本 在 
94.5% 以 上 ， 比 较 意 义 不 大 , 故 未 在 图 2 中 列 出 。 鉴 于 
篇 幅 限制 ,未 列 出 正确 识别 数 (RN)、 识 别 数 (STN) 、 以 
及 标注 的 所 有 术语 数 (TN) 随 着 模板 的 变化 情况 ,详细 


个 术语 , BME 滩 火 炉 为 一 个 术语 。“ 种 ”为 术语 “燃气 ” 
的 前 一 个 字 ， 而 “大 ”为 术语 “加 热 ” 的 后 一 个 字 。 本 文 约 
XE, 识别 出 的 正确 术语 为 抽取 后 的 领域 集合 中 的 单字 
术语 以 及 完整 非 单字 术语 即 以 B 开头 , 以 了 结尾 中 间 
为 M 的 术语 。 识别 出 的 术语 为 所 有 单字 术语 以 及 以 B 


开头 的 术语 。 所 有 标注 的 术语 为 核心 词汇 库 中 的 术语 。 ”数据 如 表 4 所 示 : 
e 364 不 同 特征 模板 的 专利 术语 识别 结果 
T 模板 
Yr 指 标 TMPTO TMPTI TMPT2 TMPT3 TMPT4 'TMPT5 TMPT6 TMPT7 TMPT8 TMPT9 
: ix P 93.14% 92.17% 92.07% 92.47% 93.43% 93.10% 93.17% 91.32% 93.18% 93.29% 
92.49% 92.26% 92.16% 92.51% 93.78% 93.29% 93.68% 91.34% 93.83% 93.63% 
F1 92.81% 92.22% 92.12% 92.49% 93.61% 93.19% 93.43% 91.33% 93.51% 93.46% 
SP 95.11% 94.58% 94.50% 94.63% 95.00% 94.65% 94.90% 94.43% 95.09% 94.96% 
RN 3 705 3 696 3 692 3 706 3757 3 737 3753 3659 3759 3 751 
PS STN 3 978 4010 4010 4 008 4 021 4014 4 028 4 007 4 034 4 021 
( z TN 4 006 4 006 4 006 4 006 4 006 4 006 4 006 4 006 4 006 4 006 


TMPT 
一 一 准确 率 一 一 召 回 率 一 一 F1 值 


图 2 不 同 特征 模板 的 比较 结果 


(1) 特征 增加 的 作用 探讨 

TMPTO0, TMPTI, TMPT2, TMPT3, TMPTA, 
TMPTS, TMPTS 用 于 对 比特 征 的 增加 对 实验 效果 的 影 
响 。 这 几 个 模板 均 使 用 5 字 长 窗口 。 如 图 2 所 示 , 在 
TMPTO 测试 时 ,， 即 只 有 字 序 列 与 角色 两 列 时 ， 所 得 准 
确 率 达到 93.14%， 召 回 率 达到 92.49%, 这 说 明 字 本 身 
占据 了 主导 作用 。 随 着 特征 的 扩展 , 各 指标 稍 有 下 降 ， 


现代 图 书 情报 技术 


随后 上 升 ， 直至 TMPT4 增加 级 别 特征 后 ,正确 识别 出 
的 术语 个 数 多 达 3 757 个 ， 准 确 率 达 到 93.4395, 召回 
率 达 到 93.7896, F1 值 也 达到 93.61%， 同 时 单字 识别 率 
也 达到 了 最 大 值 95.0096. 这 说 明 合适 的 特征 扩展 能 够 
提高 识别 率 , 而 不 相关 的 特征 反而 会 干扰 术语 的 识 
别 。 同 时 从 整体 变化 趋势 看 , 召回 率 的 变化 比 准确 率 
的 变化 大 , 说 明了 特征 的 增加 更 有 利于 术语 的 召回 。 

(2) 纵向 、 横 向 的 制约 作用 以 及 前 一 角色 对 当前 
角色 的 制约 作用 

TMPTS fil TMPT6 探讨 纵向 约束 的 作用 。TMPT5 
为 5 字 长 窗口 , 而 TMPT6 为 3 字 长 窗口 , 其 比较 结 
如 图 2 示 , 两 者 结果 差异 不 大 , 但 是 总 体 上 TMPT6 的 
准确 率 、 召回 率 和 Fl 值 略 高 。 这 说 明 字 长 窗口 的 增加 
并 不 与 识别 效果 成 正比 ,需要 视 具体 语 料 而 定 。 如 果 
选择 不 当 , 在 一 定 程度 上 会 降低 识别 效果 。 


TMPT5 和 TMPT9 探讨 横向 间隔 的 特征 之 间 的 影 
响 。TMPT9 去 除了 横向 间隔 特征 之 间 的 约束 。 两 者 结 
果 差 异 较 小 , 但 整体 上 TMPTO 的 各 指标 值 略 高 , 说 明 
间隔 特征 的 约束 不 一 定 能 提高 识别 效果 。 在 当前 语 料 
中 更 适宜 去 除 间隔 特征 的 影响 。 

TMPTS 和 TMPT7 比较 前 一 个 字 对 当前 字 的 制约 
作用 。TMPT7 去 除了 前 一 角色 对 当前 角色 的 约束 , 结 
果 显 示 其 各 个 指标 比 TMPT5 明显 降低 ,这 说 明 前 一 
角色 对 当前 角色 的 约束 作用 非常 重要 。 

(3) 不 同 特征 组 合 结果 的 变化 

为 探讨 不 同 特征 的 作用 , 笔者 结合 上 一 步 的 实验 
结果 , 重新 调整 特征 模板 , 使 用 3 字 长 窗口 ,同时 去 除 
间隔 特征 的 约束 ,并 且 保 留 LiLo, 将 有 用 特征 重新 组 
合 实验 验证 识别 效果 。 
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基准 对 比 ， 然 后 将 效果 最 佳 的 G 与 其 他 特征 组 合 ,结果 发 现 
G 和 C 组 合并 未 达到 最 佳 状态 ， 相反 G 与 其 他 特征 组 合 效果 
更 好 ,同时 G 与 X 组 合 时 召回 率 达 到 最 大 值 94.71%, 5 K 
组 合 时 准确 率 达 到 了 最 大 值 94.23%。 这 说 明 特 征 的 组 合并 
不 与 单个 特征 的 效果 成 正 相 关 。 
3.22 ”角色 定义 增加 

前 面 的 实验 中 , 角色 定义 均 为 B、M、E、A、S 共 
5 个 角色 。 为 探讨 角色 定义 的 增加 对 实验 结果 的 影响 ， 
笔者 新 增 了 两 个 角色 PQ, P 表示 术语 首 字 的 前 一 个 字 . 
而 Q 表示 术语 尾 字 的 后 一 个 字 , 详细 示例 可 参见 表 1。 
当 术 语 为 连续 术语 时 ， 如 表 2 中 的 “燃气 ”和 “加 热 ” 两 个 
术语 ， 此 时 术语 的 后 一 个 字 还 是 术语 , 优先 标注 术语 ， 
只 有 当 术 语 的 前 或 后 一 个 字 为 非 术语 时 , 将 其 标注 为 P 
或 Q。 经 过 对 特征 模板 的 实验 筛选 , 选择 改进 后 的 6 个 


模板 ， 以 及 相同 特征 组 合 顺序 , 测试 结果 如 图 4 所 示 ， 
95.10% 在 只 有 字 序 列 本 身 时 ， 两 者 差距 较 小 ， 随 着 特征 的 增 
加 , 无 P 和 Q 角色 的 识别 效果 较 好 。 这 说 明 角 色 的 定义 
TUR 需 适当 , 角色 不 恰当 的 增加 反而 不 利于 识别 。 
0.948 
M 94.1096 0.944 
— 0.940 
: 0.936 
- 93.6096 0.932 
NI Z ZT ZK ZG ZC ZY ZX DEDE 
> (a) 0.924 
cg 94.90% 0.920 
»« " - Z ZX ZXY ZXYK ZXYKG ZXYKGC ZXYKGCT 
© 94.70% 一 一 无 PQ 正 确 率 -中 -无 PQ 召 回 率 一 一 无 PQF1 值 
qe dius 一 一 有 PQ 正 确 率 一 e 一 有 PQ 召回 率 一 一 有 PQF1 值 
= 图 4 增加 角色 了 P 和 角色 Q 后 的 识别 效果 
-= 94.30% 
oO 94.1096 3.3 ”不同 参 数 对 比 
观察 以 上 特征 以 及 角色 组 合 , 选择 P 值 .R 值 和 Fl 


ZCT ZGC ZGK ZGT ZGY ZGX 值 均 最 高 的 模板 ， 即 由 ZTKG 组 成 的 模板 进行 软件 边 

°° 界 参数 c 值 ， 以 及 特征 函数 频次 阔 值 f 值 的 调整 实验 。e 

用 于 调节 条 件 随机 场 模型 中 的 数据 欠 拟 合 和 过 拟 合 之 

图 3 单个 特征 比较 和 两 个 特征 比较 间 的 平衡 。f 用 于 限制 训练 数量 中 出 现 不 少 于 上 次 的 特 

OD 单个 特征 与 字 序 列 组 合 ,探讨 较为 有 用 的 特征 。 鉴于 ” 征 。 由 图 5(a) 可 知 ， 当 了 f 值 为 1 时, 识别 效果 最 好 ， 随 着 

篇 幅 ， 笔 者 未 列 出 数据 表格 ， 仅 绘制 趋势 图 ， 如 图 3(a) 所 示 。 f 值 的 增加 , 准确 率 、 召 回 率 、F1 值 均 下 降 。 这 可 能 与 

整体 上 看 任何 特征 的 增加 ， 召 回 率 均 有 所 提高 。 而 准确 率 与 。 本文 所 使 用 的 专利 文献 语 料 特征 较 少 有 关 。 随 着 f 值 的 

初始 情况 对 比 ， 有 降低 现象 。 从 单个 增加 的 特征 对 比 来 看 ，。 增加 , 低频 的 特征 被 过 滤 ， 导致 识别 出 的 正确 术语 数量 

特征 G， 即 级 别 特 征 最 有 利于 识别 专利 术语 。 其 次 是 分 类 减少 。 图 5(b) 中 显示 , c 值 的 变化 对 识别 效果 整体 波动 
特征 ,而 领域 特征 KK、 音 译 特 征 Y 效果 相似 ,姓氏 特征 久 和 、 、 

e d c. 不 大 , 从 1 增 大 到 4 时 ,呈现 上 升 趋势 ,随后 迅速 下 降 ， 

而 后 又 逐渐 上 升 , 到 c 等 于 9 时 ,各 项 指标 达到 最 大 值 。 


(QA dp EAE AUR BUM AE GUAE C 与 其 他 特征 组 合 探 
讨 组 合 效果 。 结 果 如 图 3(b) 所 示 。 将 C de T 组 合 效果 作为 “这 说 明 c 值 的 变化 对 识别 效果 整体 影响 不 大 。 
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1 5 10 15 20 25 30 
(a) f 值 变化 趋势 
95.20% 
95.00% 
94.80% 
94.60% 
94.40% 
94.20% 


1 2 3 4 5 6 7 8 9 10 
(b) c 值 变化 趋势 
一 -4 一 准确 率 一 曙 一 召回 率 一 在 一 FUÉ 


图 5 频率 参数 f 值 调整 和 拟 合 参 数 c 值 调整 


4 结 语 


本 文通 过 定义 不 同 的 角色 和 特征 ,同时 对 原始 专 
利 术 语 语 料 进 行 序列 标注 生成 学 习 语 料 和 测试 语 料 ， 
通过 CRFs 模型 抽取 术语 。 其 中 详细 探讨 了 特征 模型 、 
角色 和 参数 三 个 因素 对 结果 的 影响 , 实验 结果 表明 : 

(1) 恰当 的 扩展 特征 序列 有 助 于 术语 识别 ,否则 
特征 的 增加 反而 不 利于 术语 识别 ; 二 元 特征 的 约束 明 
显 有 助 于 术语 识别 ; 间隔 特征 的 约束 在 本 文 语 料 中 不 
利于 术语 识别 。 

(2) 角色 的 增加 不 一 定 与 识别 效果 成 正比 , 需要 
根据 具体 语 料 进 行 调整 。 

(3)c 值 变化 整体 而 言 对 实验 结果 影响 不 大 , 在 特 
征 较 少 的 专利 文献 中 ,f 值 为 1 时 识别 效果 最 好 。 

(4) 以 不 完善 的 核心 语料库 作为 原始 标 引 语 料 的 
前 提 下 ,7 597 条 冶金 领域 的 题名 学 习 和 训练 时 间 约 
85.45s, CRFs 在 效果 最 优 的 角色 、 特 征 、 以 及 特征 模 
板 的 实验 中 , 得 到 94% 以 上 的 准确 率 和 召回 率 , 同时 
获取 到 正确 的 未 登录 词 共 70 个 , 例如 “ 预 热 器 *、“ 讽 化 
物 ”、“ 电 炉 炼 钢 炉 ”、“ 反 应 剂 "、“ 锻 热 " “ 均 热 钢 ”、“ 模 
具 炉 ”等 。 其 准确 率 高 并 且 可 识别 一 定数 量 的 未 登录 
词 ， 说 明 该 模型 优 于 HMM 等 基于 规则 的 识别 方法 。 

但 文中 也 存在 不 可 避免 的 误差 因素 ,例如 以 核心 
词汇 库 代 替 人 工 标 引 的 学 习 语 料 库 节 省 了 标注 时 间 ， 
但 会 产生 语 料 标注 不 充分 问题 。 其 次 该 语 料 为 治 金领 
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域 专 利 术 语 的 标题 , 相对 于 正文 而 言 ,更 为 精炼 和 整 
3r, 使 得 准确 率 、 召 回 率 、F1 值 较 高 。 由 于 测试 条 件 
的 限制 , 未 能 训练 更 大 的 样品 进行 实验 。 今 后 可 根据 
以 上 实验 结果 直接 设置 较为 有 用 的 特征 组 合 , 设置 最 
为 有 效 的 特征 模板 以 及 参数 ， 进 行 摘要 和 正文 的 实验 ， 
同时 邀请 专家 对 未 登录 词 进行 判断 ， 以 期 在 最 小 耗 时 
和 最 小 专家 成 本 下 最 大 限度 地 识别 出 更 多 正确 术语 。 
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Extracting Chinese Metallurgy Patent Terms with Conditional 
Random Fields 


Wang Miping Wang Hao Deng Sanhong Wu Zhixiang 
(School of Information Management, Nanjing University, Nanjing 210023, China) 
(Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China) 


Abstract: [Objective] This paper proposed a model to extract metallurgy patent terms in Chinese effectively. [Methods] 
We created the model to automatically identify metallurgy patent terminologies in Chinese with the help of conditional 
random fields(CRFs) technology. This model was tested with an incomplete core corpus. We discussed the development 
process and then compared the impacts of various CRFs factors to this character-role-labeled model. [Results] The new 
model combined the character sequences, level features, areal features and temperature features of the patent terms. Its 
precision rate was 94.26%, the recall rate was 94.37%, and the F1 value was 94.5%, while the length of the proximity 
window and the values of the parameter c and f were 3, 1, and 1 respectively. [Limitations] Some of the term labels 
were not accurate enough due to the incomplete core corpus. We did not compare our model with other methods to 
discuss the reliability of the CRFs. [Conclusions] The CRFs model could effectively identify the metallurgy patent 
terms in Chinese under appropriate working conditions. 


Keywords: Chinese patent terminology CRFs Terminology extraction | Sequence labeling 
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